视觉模型可以评估图像中的视觉上下文并生成描述性文本。尽管生成的文本可能是准确且句法正确的,但通常过于笼统。为了解决这个问题,最近的工作使用光学特征识别来补充视觉信息,并从图像中提取的文本进行补充。在这项工作中,我们认为,视觉模型可以受益于可以从图像中提取但不使用当前模型使用的其他信息。我们修改了以前的多模式框架,以接受来自任意数量的辅助分类器的相关信息。特别是,我们将重点放在人的名字作为附加令牌上,并创建一个新颖的图像捕获数据集,以促进用人名称的字幕。标题(PAC)中的数据集,政客和运动员包括背景下知名人士的字幕图像。通过使用此数据集对预处理的模型进行微调,我们演示了一个模型,该模型可以自然地将面部识别令牌纳入生成的文本中,通过培训有限的数据。对于PAC数据集,我们提供有关集合和基线基准分数的讨论。
translated by 谷歌翻译